EDA: 탐색적 데이터 분석

Hotel booking demand 데이터를 이용하여 EDA 진행

라이브러리, 데이터 준비

1. 분석의 목적과 변수 확인

🤔

💡 의미가 없거나 값이 너무 많이 비어있는 컬럼은 제외

2. 데이터 전체적으로 살펴보기

👉 chiledren, country, agent, company 컬럼을 제외하고는 결측치가 없다.

children의 결측치는 4개 밖에 없기때문에 0으로 바꾸어준다.

👉 데이터 살펴보기 (is_canceled 컬럼과의 관계)

3. 데이터의 개별속성 파악하기🔎

hotel, is_canceled

👉 취소하지 않은 고객의 데이터가 더 많다. 그리고 City Hotel의 데이터가 더 많다.

arrival_date_month

👉 여름에 예약하는 사람이 많고, 겨울에 예약하는 사람이 적다.

reserved_room_type

👉 예약된 객실 유형의 코드는 A, D, E, F, G 순으로 많다.

⭐ 가설 세우기

  1. 예약 날짜와 도착 날짜 사이의 일수가 많을수록 예약을 취소하는 사람이 많을 수 있다.
  2. 예약을 변경한 횟수가 적을수록 예약을 취소하는 사람이 많을 수 있다.
  3. 어느 달이 취소하는 사람이 많을까?

1. 예약 날짜와 도착 날짜 사이의 일수가 많을수록 예약을 최소하는 사람이 많을 수 있다.

❌ 오래전에 예약한 사람보다 급하게 예약한 사람들이 취소하는 사람이 더 많다.

2. 예약을 변경한 횟수가 적을수록 예약을 취소하는 사람이 많을 수 있다.

⭕ 예약 변경 횟수가 적을수록 에약을 취소하는 사람이 많다.

3. 어느 달이 취소하는 사람이 많을까?

👉 4월과 6월에 취소하는 사람이 많고, 1월과 11월에 취소하는 사람이 적다.